Skip to content

使用 Google AI Studio 生成語音檔

TLDR

  • 工具定位:Gemini 為個人助手,適合日常任務;Google AI Studio 為開發者工作站,提供專業參數與語音生成功能。
  • 隱私建議:若處理敏感內容,請在 AI Studio 設定計費專案(Set up billing),以確保資料不被用於模型訓練。
  • 計費模式:AI Studio 提供免費配額,超出後採隨用隨付制。
  • 參數調整:Temperature 建議維持預設值 1,過低可能導致語音異常或機器音。
  • 腳本優化:中英文間加入半形空格可提升發音準確度;段落間勿使用過多空行,以免模型誤判結束。
  • 適用場景:適合 Podcast、有聲內容或演講練習;不適合需逐字精確朗讀的法律或技術文件。

工具定位與隱私差異

在選擇工具時,需區分 Gemini 與 Google AI Studio 的定位差異:

  • Gemini:個人數位助手,介面直覺,整合 Google 生態系服務。
  • AI Studio:開發者工作站,提供專業參數控制與 Generate speech 等進階功能。

隱私與計費注意事項

  • Gemini:預設會使用對話資料訓練模型,關閉「活動紀錄」雖可保護隱私,但會失去對話儲存功能。
  • AI Studio:免費配額下資料會用於訓練。若要確保隱私,務必設定計費專案(Set up billing),此模式下輸入資料不會被用於訓練。

WARNING

若處理敏感內容或在意隱私,建議在 AI Studio 設定計費專案。

操作流程

若要將文字轉換為擬真的 AI 語音,請依循以下步驟:

  1. 進入 Google AI Studio,點擊左側「Playground」並選擇「Audio」分類,選取「Gemini 2.5 Pro Preview TTS」。
  2. 在 Text 輸入框貼上腳本。
  3. 於設定欄位選擇 Voice(語音角色)。
  4. 點擊「Run Ctrl + ↵」執行運算。
  5. 試聽後,點擊右側三點圖示(⋮)下載 .wav 檔案。

ai studio navigation

ai studio audio player

WARNING

若短時間內大量生成,可能遇到 Failed to generate content: user has exceeded quota. Please try again later. 錯誤,代表額度用完,請稍後再試。

參數設定說明

Mode(模式選擇)

  • Single-speaker audio:單人腳本。
  • Multi-speaker audio:多人腳本(目前限制兩人)。

Model settings:Temperature

此參數控制語音生成的隨機性(範圍 0 ~ 2,預設 1)。

  • 踩雷紀錄:實測發現將 Temperature 調低(低於 0.6 ~ 0.7)時,容易發生「前段正常,後段突然靜音或產生無意義噪音」的狀況,且語氣容易出現機器音。
  • 建議做法:除非有耐心反覆測試極限值,否則建議維持預設值 1

Text(腳本內容優化)

  • 中英夾雜:在中文與英文單字間加入半形空格,能協助 AI 更精準切換語系。
  • 段落停頓:段落間空行代表停頓,但請勿連續超過兩行,否則可能導致語音提前結束。
  • 時長限制:單次生成上限約 11 分鐘。若內容長度接近上限,建議重新執行,因每次語速略有不同。

TIP

由於訓練資料中大陸用語佔比較高,系統可能自動將台灣用語替換(例如「堆疊」變「堆棧」)。目前無完美解法,建議接受此限制。

腳本範例

以下為製作語音內容時的設定參考:

Style instructions

text
請用生動、熱情且自然的對話語氣。中文語調請保持柔和、親切,英文請用標準美式口音。

Text

text
歡迎收聽軟體工程師英語的第一集。今天我們的主題是 Git 版本控制。

版本控制
Version Control
例句:Git is the most popular distributed version control system.
Git 是最受歡迎的分散式版本控制系統。

總結

Google AI Studio 的 Generate speech 具備「理解並演繹」腳本的能力,而非單純逐字朗讀。

  • 適合情境:製作 Podcast、有聲書、報告練習或劇本試讀。
  • 不適合情境:法律文件、技術規格書等需要完全忠於原文的逐字朗讀內容,建議改用傳統 TTS 工具。

異動歷程

    • 初版文件建立。